Data 정리하여 표를 만들기.

•W. S. Gosset 이 t-분포를 유도하느라고 모의실험에 활용한 자료를 이용하여,

  142.24 144.78 147.32 149.86 152.4 154.94 157.48 160.02 162.56 165.1 167.64 170.18 172.72 175.26 177.8 180.34 182.88 185.42 187.96 190.5 193.04 195.58
9.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.5 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.8 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.9 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
10 1 0 0 1 2 0 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
10.1 0 0 0 1 3 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
10.2 0 0 2 2 2 1 0 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0
10.3 0 1 1 3 2 2 3 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0
10.4 0 0 1 1 2 3 3 4 3 3 0 0 0 0 0 0 0 0 0 0 0 0
10.5 0 0 0 1 3 7 6 4 3 1 3 1 0 1 0 0 0 0 0 0 0 0
10.6 0 0 0 1 4 5 9 14 6 3 1 0 0 1 0 0 0 0 0 0 0 0
10.7 0 0 1 2 4 9 14 16 15 7 3 1 2 0 0 0 0 0 0 0 0 0
10.8 0 0 0 2 5 6 14 27 10 7 1 2 1 0 0 0 0 0 0 0 0 0
10.9 0 0 0 0 2 6 14 24 27 14 10 4 1 0 0 0 0 0 0 0 0 0
11 0 0 0 2 6 12 15 31 37 27 17 10 6 0 0 0 0 0 0 0 0 0
11.1 0 0 0 3 3 12 22 26 24 26 24 7 4 1 0 0 0 0 0 0 0 0
11.2 0 0 0 3 2 7 21 30 38 29 27 20 4 1 0 0 0 0 0 0 0 1
11.3 0 0 0 1 0 5 10 24 26 39 26 24 7 2 0 0 0 0 0 0 0 0
11.4 0 0 0 0 3 4 9 29 56 58 26 22 10 11 0 0 0 0 0 0 0 0
11.5 0 0 0 0 0 5 11 17 33 57 38 34 25 11 2 0 0 0 0 0 0 0
11.6 0 0 0 0 2 1 4 13 37 39 48 38 27 12 2 2 0 1 0 0 0 0
11.7 0 0 0 0 0 2 9 17 30 37 48 45 24 9 9 2 0 0 0 0 0 0
11.8 0 0 0 0 1 0 2 11 15 35 41 34 29 10 5 1 0 0 0 0 0 0
11.9 0 0 0 0 1 1 2 12 10 27 32 35 19 10 9 3 1 0 0 0 0 0
12 0 0 0 0 0 0 1 4 8 19 42 39 22 16 8 2 2 0 0 0 0 0
12.1 0 0 0 0 0 0 0 2 4 13 22 28 15 27 10 4 1 0 0 0 0 0
12.2 0 0 0 0 0 0 1 2 5 6 23 17 16 11 8 1 1 0 0 0 0 0
12.3 0 0 0 0 0 0 0 0 4 8 10 13 20 23 6 5 0 0 0 0 0 0
12.4 0 0 0 0 0 0 1 1 1 2 7 12 4 7 7 1 0 0 1 0 0 0
12.5 0 0 0 0 0 0 0 1 0 1 3 12 11 8 6 8 0 2 0 0 0 0
12.6 0 0 0 0 0 0 0 0 0 1 0 3 5 7 8 6 3 1 1 0 0 0
12.7 0 0 0 0 0 0 0 0 0 1 1 7 5 5 8 2 2 0 0 0 0 0
12.8 0 0 0 0 0 0 0 0 0 0 1 2 3 1 8 5 3 1 1 0 0 0
12.9 0 0 0 0 0 0 0 0 0 0 0 1 2 2 0 1 1 0 0 0 0 0
13 0 0 0 0 0 0 0 0 0 0 3 0 1 0 1 0 2 1 0 0 0 0
13.1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0
13.2 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 3 0 0 0 0 0 0
13.3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0
13.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
13.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
  56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77
9.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.5 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.8 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9.9 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
10 1 0 0 1 2 0 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
10.1 0 0 0 1 3 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
10.2 0 0 2 2 2 1 0 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0
10.3 0 1 1 3 2 2 3 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0
10.4 0 0 1 1 2 3 3 4 3 3 0 0 0 0 0 0 0 0 0 0 0 0
10.5 0 0 0 1 3 7 6 4 3 1 3 1 0 1 0 0 0 0 0 0 0 0
10.6 0 0 0 1 4 5 9 14 6 3 1 0 0 1 0 0 0 0 0 0 0 0
10.7 0 0 1 2 4 9 14 16 15 7 3 1 2 0 0 0 0 0 0 0 0 0
10.8 0 0 0 2 5 6 14 27 10 7 1 2 1 0 0 0 0 0 0 0 0 0
10.9 0 0 0 0 2 6 14 24 27 14 10 4 1 0 0 0 0 0 0 0 0 0
11 0 0 0 2 6 12 15 31 37 27 17 10 6 0 0 0 0 0 0 0 0 0
11.1 0 0 0 3 3 12 22 26 24 26 24 7 4 1 0 0 0 0 0 0 0 0
11.2 0 0 0 3 2 7 21 30 38 29 27 20 4 1 0 0 0 0 0 0 0 1
11.3 0 0 0 1 0 5 10 24 26 39 26 24 7 2 0 0 0 0 0 0 0 0
11.4 0 0 0 0 3 4 9 29 56 58 26 22 10 11 0 0 0 0 0 0 0 0
11.5 0 0 0 0 0 5 11 17 33 57 38 34 25 11 2 0 0 0 0 0 0 0
11.6 0 0 0 0 2 1 4 13 37 39 48 38 27 12 2 2 0 1 0 0 0 0
11.7 0 0 0 0 0 2 9 17 30 37 48 45 24 9 9 2 0 0 0 0 0 0
11.8 0 0 0 0 1 0 2 11 15 35 41 34 29 10 5 1 0 0 0 0 0 0
11.9 0 0 0 0 1 1 2 12 10 27 32 35 19 10 9 3 1 0 0 0 0 0
12 0 0 0 0 0 0 1 4 8 19 42 39 22 16 8 2 2 0 0 0 0 0
12.1 0 0 0 0 0 0 0 2 4 13 22 28 15 27 10 4 1 0 0 0 0 0
12.2 0 0 0 0 0 0 1 2 5 6 23 17 16 11 8 1 1 0 0 0 0 0
12.3 0 0 0 0 0 0 0 0 4 8 10 13 20 23 6 5 0 0 0 0 0 0
12.4 0 0 0 0 0 0 1 1 1 2 7 12 4 7 7 1 0 0 1 0 0 0
12.5 0 0 0 0 0 0 0 1 0 1 3 12 11 8 6 8 0 2 0 0 0 0
12.6 0 0 0 0 0 0 0 0 0 1 0 3 5 7 8 6 3 1 1 0 0 0
12.7 0 0 0 0 0 0 0 0 0 1 1 7 5 5 8 2 2 0 0 0 0 0
12.8 0 0 0 0 0 0 0 0 0 0 1 2 3 1 8 5 3 1 1 0 0 0
12.9 0 0 0 0 0 0 0 0 0 0 0 1 2 2 0 1 1 0 0 0 0 0
13 0 0 0 0 0 0 0 0 0 0 3 0 1 0 1 0 2 1 0 0 0 0
13.1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0
13.2 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 3 0 0 0 0 0 0
13.3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0
13.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
13.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0

각 변수들 정규성을 검정

많은 통계적 추론에서는 자료의 독립성과 정규성(자료가 정규분포를 따른다 것을 의미함)을 가정한다. 따라서 자료의 정규성을 가정하는 통계학적인 분석 방법을 적용하고자 하는 경우에 자료가 정규분포를 따르는지 검정하고자 하는 의미에서 Q-Q 산점도를 이용한다.

위의 그림을 통해, Q-Q 산점도에 나타나는 두 변수가 직선형태를 나타낸다. 즉, 자료가 정규분포에 가깝다는 것을 의미한다.

각 변수들 빈도표 작성.

  • 키와 관련된 빈도표.
height(inches) Frequency
56 1
57 1
58 6
59 23
60 48
61 90
62 175
63 317
64 393
65 462
66 458
67 413
68 264
69 177
70 97
71 46
72 17
73 7
74 4
77 1
  • 손가락와 관련된 빈도표.
finger(inches) Frequency
9.5 1
9.8 1
9.9 3
10 7
10.1 7
10.2 10
10.3 17
10.4 20
10.5 30
10.6 44
10.7 74
10.8 75
10.9 102
11 163
11.1 152
11.2 183
11.3 164
11.4 228
11.5 233
11.6 226
11.7 232
11.8 184
11.9 162
12 163
12.1 126
12.2 91
12.3 89
12.4 44
12.5 52
12.6 35
12.7 31
12.8 25
12.9 7
13 8
13.1 2
13.2 6
13.3 2
13.5 1

각 변수들을 히스토그램으로 그리기.

각 변수들을 히스토그램을 이용하여 정규곡선 그리기.

키의 정규곡선 그리기.

  • 키의 평균과 표준편차 구하기
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   56.00   64.00   65.00   65.47   67.00   77.00
## [1] 2.557757

*면적구하기.

## [1] 0.6633333
  • 이론적인 정규분포 밀도함수 곡선을 히스토그램에 덧붙여 그림.

ggplot

손가락 정규곡선 그리기.

  • 손가락의 평균과 표준편차 구하기
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.50   11.20   11.50   11.55   11.90   13.50
## [1] 0.5487137
  • 면적 구하기
## [1] 1.155
  • 이론적인 정규분포 밀도함수 곡선을 히스토그램에 덧붙여 그림.

ggplot

키와 손가락길이의 산점도를 통한 자료의 선형성 검정.

산점도를 그리는 이유는 회귀분석을 할때 독립변수와 종속변수 간이 선형적인지 확인하기 위한 과정이다.

  1. R-base으로 그린 산점도.

  1. Plot crimtab.bin.

  1. ggplot으로 그리 산점도

## [1] 0.6557069

-> 위의 결과를 통해서, 키와 손가락길이가 약 66% 정도 연관성이 있다는 것을 확인할수 있다.

잔차산점도를 이용한 자료의 등분산성 검정.

-> 위의 결과를 통해서, 오차항들이 0를 중심으로 Random하게 분포하기 때문에 등분산성을 만족한다.

키와 손가락길이의 회귀분석.

이제 이 자료를 가지고 회귀 분석을 실시한다. 우선 이 자료를 통해 2가지 가설을 가지고 있다.

## 
## Call:
## lm(formula = finger ~ height, data = crimtab.2.long.df)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.96885 -0.28417  0.00051  0.27516  1.57850 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.337388   0.193830   12.06   <2e-16 ***
## height      0.140668   0.002958   47.55   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4144 on 2998 degrees of freedom
## Multiple R-squared:   0.43,  Adjusted R-squared:  0.4298 
## F-statistic:  2261 on 1 and 2998 DF,  p-value: < 2.2e-16

-> 위의 회귀분석을 이용한 검정결과,

  1. 회귀 모형의 R제곱이 0.43, 유의 확률이 유의 수준 0.05 < 2.2e-16 이므로 이 모형은 유의하다고 할수 있다. 즉 키와 손가락 길이가 관련성이 있다는 것을 알수 있다.

  2. 회귀 계수들이 역시 유의 확률이 유의 수준 0.05 < 2.2e-16 이므로 이 회귀식에 나와있는 회귀계수들이 유의하다고 할수 있다.

*회귀식 구하기

## (Intercept)      height 
##   2.3373879   0.1406683
## [1] "y = 0.14067x + 2.33739 (p < 0.001)"

ggplot

Data 마무리.